NLP 的发展:从技术原理到哲学设计

NLP 的发展:从技术原理到哲学设计

一、符号主义时代(1950s–1980s)

早期 NLP 建立在乔姆斯基的形式语法理论之上。核心假设是:语言是一套可以被规则穷举的符号系统。

技术上表现为手写规则、正则表达式、上下文无关文法(CFG)、语法树解析。典型系统如 ELIZA(1966),通过模式匹配模拟对话,本质上没有任何"理解"。

哲学立场:语言是逻辑的、可形式化的。这是理性主义的延伸——认为人类语言能力来自先天的、结构化的规则系统。

局限很明显:自然语言充满歧义、隐喻、省略,规则系统无法覆盖真实世界的复杂性。

二、统计学习时代(1990s–2012)

转折点是从"规则"转向"概率"。不再试图穷举规则,而是从大量语料中学习统计规律。

关键技术:

哲学转向:从理性主义走向经验主义。不再假设语言有完美的内在结构,而是承认——语言的规律性可以从数据中涌现。这暗合了维特根斯坦后期的观点:词的意义在于其使用(meaning is use)。

但统计方法的表征能力有限,特征工程严重依赖人工设计,模型看到的是"词袋"而非"语义"。

三、分布式语义与词向量(2013–2017)

Word2Vec(2013)是一个分水岭。核心思想极其简洁:一个词的意义由它的上下文决定(distributional hypothesis)。

技术实现:通过浅层神经网络(CBOW/Skip-gram),将词映射到低维稠密向量空间。结果发现向量空间中出现了语义算术:king - man

随后 GloVe、FastText 进一步发展。RNN/LSTM 开始处理序列依赖,Seq2Seq + Attention 机制(2014–2015)让机器翻译取得突破。

哲学意义深远:语义不再是离散符号的对应关系,而是连续空间中的几何关系。这是对索绪尔结构主义语言学的一种计算实现——意义来自差异和关系,而非事物本身。

四、Transformer 与预训练范式(2017–2022)

Attention Is All You Need(2017)彻底改变了架构。Transformer 抛弃了 RNN 的顺序处理,用自注意力机制让每个 token 直接与序列中所有其他 token 交互。

核心公式:Attention(Q,K,V) = softmax(QK^T / √d_k)V

这带来了两个革命性变化:

  1. 并行计算,训练效率大幅提升
  2. 长距离依赖建模能力质的飞跃

随后是预训练范式的爆发:

哲学层面,这里出现了一个深刻的问题:当模型仅仅通过"预测下一个词"就能展现出推理、翻译、摘要、编程等能力时,语言理解的本质到底是什么?

这直接挑战了传统的"理解需要 grounding"的观点。Bender & Koller(2020)提出"随机鹦鹉"批评——认为语言模型只是在操纵形式而非理解意义。但反对者指出,如果行为上无法区分,"理解"这个概念本身是否需要重新定义?这本质上是图灵测试哲学的当代版本。

五、大语言模型时代(2022–至今)

GPT-3.5/4、Claude、Gemini 等模型展现出涌现能力(emergent abilities):当模型规模跨过某个阈值,突然出现训练目标中未明确优化的能力——少样本学习、思维链推理、代码生成。

关键技术演进:

六、哲学反思:几个核心张力

形式 vs 意义:语言模型从未接触过物理世界,它的"知识"完全来自文本。这够不够构成理解?如果我们接受维特根斯坦的"语言游戏"理论——意义在语言实践中产生——那么在文本这个语言游戏中,模型或许确实获得了某种意义。但如果我们坚持 Harnad 的"符号接地问题",纯文本永远不够。

压缩即智能:Hutter Prize 的核心洞见是,数据压缩等价于预测,预测等价于理解。语言模型本质上是一个极其强大的压缩器。如果智能就是对世界模型的压缩表征,那么足够好的语言压缩是否等价于世界理解?

工具论 vs 主体论:当前的 LLM 是工具还是某种程度的认知主体?这不仅是哲学问题,更是伦理和政策问题。我们对它的定位决定了我们如何设计对齐策略、如何分配责任。

涌现与还原:涌现能力的存在暗示,智能可能不是组件的简单叠加,而是复杂系统在规模上的相变。这与复杂性科学、涌现论哲学深度
共鸣——整体大于部分之和。


NLP 的发展轨迹,从规则到统计,从特征工程到端到端学习,从任务专用到通用基础模型,本质上是一条不断放弃人类先验、让数据和计算自行发现结构的道路。这条路走到今天,反过来迫使我们重新审视:语言是什么,理解是什么,智能又是什么。这些问题已经不再只属于哲学系的研讨室,而是每一个训练 loss 下降曲线背后的实在追问。